查看原文
其他

“汉语助研”操作指南与案例一:建库

语言科技 语言科技 2022-12-05

01

网页信息抽取原理

超大规模网页是语料建库的主要来源,语料库通常需要标记标题、正文、作者等语料信息,但网页含有繁复的html标记,语料信息湮没在芜杂的网页标记之中,较难直接提取。如:

你想要的语料文件


现实中的网页文件


常见有基于统计视觉树结构模板的抽取方法。

基于模板的方法直接、高效、精准、易操作。其原理为:一个网站往往具有统一的网页模板,不会轻易更换,可以根据网页起止标记来抽取特定语料信息。如某网站语料信息抽取的起止标记如下:

表名:语料信息抽取起止标记


针对网页信息的自动抽取和建库,“汉语助研”设计了一个半智能的个性化网页信息抽取及建库模块。该模块自动抽取网页中的定向信息,如标题、正文等,自动进行数据清洗,清除html标记和广告内容,精确干净。



     
       

02

“汉语助研”建库功能的使用

下面详细介绍如何使用汉语助研软件的“建库”功能。


          


                   

步骤一:打开语料库文件夹并设置保存路径 

在“建库”模块下,点击“打开”按钮,打开预先下载好的网页文件所在的文件夹。(E:\\china)

   

接着点击“保存”,设置抽取后的语料库保存路径和语料库名(E:\\建库\建库文件\)。


步骤二:设置抽取模式与网页编码   

在“抽取模式”中,选择“精确抽取”或“懒人模式”。
若选择懒人模式,系统会自动抽取网页中的全部文字块,并不区分标题、正文等,有时会出现包括广告文字等部分无用信息,如图;而精确模式则会定向抽取标题、正文等特定的、干净的语料信息。


在“网页编码”选择中,随机打开右侧文件列表的网页文件,若内容文本框中的文字出现乱码,则需要在网页编码中进行切换,然后重新单击列表网页文件名,可正常显示。


    步骤三:选取精确抽取的开始与结束标记


首先,选择标题的开始和结束标记。
标题开始的标记一般出现在字段文本之前,如<title>。选中这个开始标记,滚动或移动鼠标,系统会自动判定是否为有效标记(即第一次出现的标记),并自动将其复制到粘贴板上。我们将<title>粘贴在“标题开始标记”处,标题后的结束标记也是如此,如</title>


其次,选择正文的开始和结束标记。
在右侧文件列表中多打开几篇语料,寻找其相同的标记规律。找到之后,选择正文前的开始标记,复制粘贴到“在正文开始标记”处,并选择正文的结束标记。如本次语料的正文标记为<article class="article-body" id="article-body">和</article>。注意:所有结束标记都是从对应的起始标记处开始判断是否是第一次出现。


最后,还可根据自己的需要选择其他的标记,例如选择“作者”或“时间”等信息。以本次示例选择的新闻语料为例,可以选择“来源”作为"其他标记",即找到其前后标记并分别复制粘贴。(<span class="pdr30">来源</span>)


设置好全部的开始、结束标记之后,单击“检查”,若标记选择正确,内容文本框会自动标红所有开始和结束标记。


为确保所有网页的抽取起止标记设置正确,可以在右侧的文件列表中,随机在上、中、下三个位置选择几篇网页,分别单击“检查”,若每篇文章都出现正确的红色标记,则表示标记选择全部正确。

     步骤四:进行建库


以上步骤完成之后,点击"建库",软件很快完成转换,显示共抽取916个网页。打开保存路径下的txt文档,可以发现已经成功抽取所需信息。



以上为汉语助研“建库”功能的使用步骤。




03

网页语料库展示






  快来动手试试建库吧  






            1 关注“语言科技”公众号2 后台回复“汉语助研”,免费下载正式版

后台回复“汉语助研”,免费获取正式版软件。


3 后台发送“语料库建库”免费获取资源

后台发送“语料库建库”,免费获取批量抽取建库的训练用网页压缩包。

4 操作指南和研究案例分享

关注公众号推文,我们将陆续推出软件的使用操作视频以及典型案例。

       

往期推荐


     


汉语助研——语料库建库统计一体化工具

文字 / 刘华 陈凯艺 任德玲图片 / 刘华 任德玲 吴贻卿排版 / 陈伊彤 陈凯艺
初审 / 陈凯艺 郭佳佳审核 / 刘华


END


       

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存